微软研究院&多伦多大学

2024-04-18 08:09| 来源: 网络整理| 查看: 265

【标题】Semi-Markov Offline Reinforcement Learning for Healthcare

【作者团队】Mehdi Fatemi, Mary Wu, Jeremy Petch, Walter Nelson, Stuart J. Connolly, Alexander Benz, Anthony Carnicelli, Marzyeh Ghassemi

【发表日期】2022.3.17

【论文链接】https://arxiv.org/pdf/2203.09365.pdf

【推荐理由】强化学习（RL）任务通常被定义为马尔可夫决策过程（MDP），假设决策是在固定的时间间隔内做出的。然而，包括医疗保健在内的许多非常重要的应用程序并不满足这一假设，但它们通常在对数据进行人工重塑后被建模为MDP。此外，大多数医疗（及类似）问题本质上是离线的，只允许进行回顾性研究。为此，本文首先讨论了Semi-MDP（SMDP）框架，该框架正式处理可变时间的操作。其提出一种将SMDP修改应用于几乎任何基于给定值的离线RL方法的正式方法。利用这一理论介绍了三种基于SMDP的离线RL算法，即SDQN、SDDQN和SBCQ。实证研究证明，这些基于SMDP的算法可以在这些可变时间环境中学习最优策略，而MDP模型的非定向修改会导致次优策略。最后，将该新算法应用于与预防中风的华法林剂量相关的真实离线数据集，并展示了类似的结果。

【本文地址】

微软研究院&多伦多大学

微软研究院&多伦多大学

今日新闻

推荐新闻